{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "## 加载所需要包\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "import jieba\n",
    "import time\n",
    "import csv"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 创建停用词列表\n",
    "def stopwordslist():\n",
    "    stopwords = [line.strip() for line in open('../cnews/stop.txt',encoding='UTF-8').readlines()]\n",
    "    return stopwords"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(7000, 1)"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "## 读取停用词\n",
    "stopword = stopwordslist()\n",
    "## 读取数据集\n",
    "Red_df = pd.read_csv(\"../data/train/labeled_data.csv\")\n",
    "## 增大样本量\n",
    "Artical = []\n",
    "for ii in range(7000):\n",
    "    Artical.append(Red_df.content[ii])\n",
    "Red = pd.DataFrame(data = {\"Artical\" : Artical})\n",
    "Red.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "d:\\python\\lib\\site-packages\\ipykernel_launcher.py:16: DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead\n",
      "  app.launch_new_instance()\n",
      "Building prefix dict from the default dictionary ...\n",
      "Loading model from cache C:\\Users\\吨吨吨\\AppData\\Local\\Temp\\jieba.cache\n",
      "Loading model cost 0.592 seconds.\n",
      "Prefix dict has been built successfully.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "16.85052689999793\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "d:\\python\\lib\\site-packages\\ipykernel_launcher.py:19: DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead\n"
     ]
    }
   ],
   "source": [
    "## 只使用apply：\n",
    "\n",
    "def cutword2(string):\n",
    "    cutwords = list(jieba.cut(string, cut_all=True))\n",
    "    ## 去除长度大于1的词\n",
    "    cutwordii = []\n",
    "    for cut in cutwords:\n",
    "        if len(cut) > 1:\n",
    "            cutwordii.append(cut)\n",
    "    cutwords = pd.Series(cutwordii)\n",
    "    ## 去停用词\n",
    "    cutwords = cutwords[~cutwords.isin(stopword)]\n",
    "    return(cutwords.values)\n",
    "\n",
    "## 使用apply方法分词\n",
    "start = time.clock()\n",
    "Red[\"cutword\"] = \"cutword\"\n",
    "Red[\"cutword\"] = Red.Artical.apply(func=cutword2)\n",
    "end = time.clock()\n",
    "timeapply = end-start\n",
    "print(timeapply)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>class_label</th>\n",
       "      <th>content</th>\n",
       "      <th>cutword</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>时政</td>\n",
       "      <td>韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...</td>\n",
       "      <td>韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>房产</td>\n",
       "      <td>王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...</td>\n",
       "      <td>商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>房产</td>\n",
       "      <td>碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...</td>\n",
       "      <td>碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>房产</td>\n",
       "      <td>刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...</td>\n",
       "      <td>商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>财经</td>\n",
       "      <td>回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...</td>\n",
       "      <td>回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6995</th>\n",
       "      <td>6995</td>\n",
       "      <td>科技</td>\n",
       "      <td>英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...</td>\n",
       "      <td>刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6996</th>\n",
       "      <td>6996</td>\n",
       "      <td>时尚</td>\n",
       "      <td>搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...</td>\n",
       "      <td>搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6997</th>\n",
       "      <td>6997</td>\n",
       "      <td>家居</td>\n",
       "      <td>加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...</td>\n",
       "      <td>零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6998</th>\n",
       "      <td>6998</td>\n",
       "      <td>时政</td>\n",
       "      <td>基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...</td>\n",
       "      <td>基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6999</th>\n",
       "      <td>6999</td>\n",
       "      <td>时政</td>\n",
       "      <td>国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...</td>\n",
       "      <td>国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>7000 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        id class_label                                            content  \\\n",
       "0        0          时政  韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...   \n",
       "1        1          房产  王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...   \n",
       "2        2          房产  碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...   \n",
       "3        3          房产  刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...   \n",
       "4        4          财经  回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...   \n",
       "...    ...         ...                                                ...   \n",
       "6995  6995          科技  英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...   \n",
       "6996  6996          时尚  搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...   \n",
       "6997  6997          家居  加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...   \n",
       "6998  6998          时政  基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...   \n",
       "6999  6999          时政  国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...   \n",
       "\n",
       "                                                cutword  \n",
       "0     韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...  \n",
       "1     商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...  \n",
       "2     碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...  \n",
       "3     商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...  \n",
       "4     回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...  \n",
       "...                                                 ...  \n",
       "6995  刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...  \n",
       "6996  搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...  \n",
       "6997  零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...  \n",
       "6998  基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...  \n",
       "6999  国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...  \n",
       "\n",
       "[7000 rows x 4 columns]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red_df['cutword'] = Red.cutword.apply(func=lambda x:' '.join(x))\n",
    "Red_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>class_label</th>\n",
       "      <th>content</th>\n",
       "      <th>cutword</th>\n",
       "      <th>cutwordnum</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>时政</td>\n",
       "      <td>韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...</td>\n",
       "      <td>韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...</td>\n",
       "      <td>223</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>房产</td>\n",
       "      <td>王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...</td>\n",
       "      <td>商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...</td>\n",
       "      <td>429</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>房产</td>\n",
       "      <td>碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...</td>\n",
       "      <td>碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...</td>\n",
       "      <td>305</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>房产</td>\n",
       "      <td>刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...</td>\n",
       "      <td>商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...</td>\n",
       "      <td>496</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>财经</td>\n",
       "      <td>回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...</td>\n",
       "      <td>回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...</td>\n",
       "      <td>1160</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6995</th>\n",
       "      <td>6995</td>\n",
       "      <td>科技</td>\n",
       "      <td>英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...</td>\n",
       "      <td>刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...</td>\n",
       "      <td>439</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6996</th>\n",
       "      <td>6996</td>\n",
       "      <td>时尚</td>\n",
       "      <td>搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...</td>\n",
       "      <td>搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...</td>\n",
       "      <td>89</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6997</th>\n",
       "      <td>6997</td>\n",
       "      <td>家居</td>\n",
       "      <td>加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...</td>\n",
       "      <td>零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...</td>\n",
       "      <td>21</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6998</th>\n",
       "      <td>6998</td>\n",
       "      <td>时政</td>\n",
       "      <td>基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...</td>\n",
       "      <td>基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...</td>\n",
       "      <td>173</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6999</th>\n",
       "      <td>6999</td>\n",
       "      <td>时政</td>\n",
       "      <td>国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...</td>\n",
       "      <td>国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...</td>\n",
       "      <td>340</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>7000 rows × 5 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        id class_label                                            content  \\\n",
       "0        0          时政  韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...   \n",
       "1        1          房产  王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...   \n",
       "2        2          房产  碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...   \n",
       "3        3          房产  刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...   \n",
       "4        4          财经  回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...   \n",
       "...    ...         ...                                                ...   \n",
       "6995  6995          科技  英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...   \n",
       "6996  6996          时尚  搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...   \n",
       "6997  6997          家居  加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...   \n",
       "6998  6998          时政  基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...   \n",
       "6999  6999          时政  国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...   \n",
       "\n",
       "                                                cutword  cutwordnum  \n",
       "0     韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...         223  \n",
       "1     商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...         429  \n",
       "2     碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...         305  \n",
       "3     商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...         496  \n",
       "4     回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...        1160  \n",
       "...                                                 ...         ...  \n",
       "6995  刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...         439  \n",
       "6996  搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...          89  \n",
       "6997  零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...          21  \n",
       "6998  基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...         173  \n",
       "6999  国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...         340  \n",
       "\n",
       "[7000 rows x 5 columns]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red_df[\"cutwordnum\"] = Red.cutword.apply(func=lambda x:len(x))\n",
    "Red_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array(['渣打', '渣打银行', '银行', '个贷', '宣传', '轰炸', '月薪', '3000', '20', '证券',\n",
       "       '证券时报', '时报', '记者', '本报', '本报讯', '我行', '推出', '抵押', '担保', '现金',\n",
       "       '贷款', '深圳', '工作', '月薪', '3000', '即可', '申请', '额度', '高达', '20', '万元',\n",
       "       '近期', '渣打', '渣打银行', '银行', '行营', '营销', '人员', '短信', '电话', '电邮', '方式',\n",
       "       '展开', '持续', '持续性', '宣传', '轰炸', '金融', '金融机构', '机构', '担任', '孙先生',\n",
       "       '近期', '接到', '国内', '银行', '银行信用', '信用', '信用贷款', '贷款', '推广', '广电',\n",
       "       '电话', '高利', '高利率', '利率', '信用', '信用贷款', '贷款', '业务', '务正', '银行',\n",
       "       '视为', '贷款', '业务', '突破', '突破口', '破口', '并以', '凌厉', '攻势', '铺展', '铺展开',\n",
       "       '铺展开来', '展开', '开来', '个人住房', '住房', '按揭', '贷款', '增长', '动力', '情况',\n",
       "       '高息', '个人信用', '信用', '信用贷款', '贷款', '银行', '近期', '重点', '推广', '业务',\n",
       "       '过电', '电话', '营销', '电邮', '营销', '多种', '方式', '目标', '客户', '客户群', '伸出',\n",
       "       '触角', '近期', '深圳', '深圳市', '白领', '领人', '人士', '渣打', '渣打银行', '银行',\n",
       "       '业务', '推广', '邮件', '介绍', '电话', '骚扰', '记者', '渣打', '渣打银行', '银行', '业务',\n",
       "       '覆盖', '覆盖面', '北京', '上海', '深圳', '城市', '推出', '之外', '月初', '开辟', '南昌',\n",
       "       '珠海', '厦门', '市场', '信用', '信用贷款', '贷款', '贷款风险', '风险', '较大', '少有',\n",
       "       '银行', '大力推广', '力推', '推广', '一业', '业务', '业内', '业内人士', '内人', '人士',\n",
       "       '介绍', '银行', '个人消费', '消费', '贷款', '贷款', '申请', '申请人', '提供', '供房',\n",
       "       '房产', '抵押', '抵押物', '房产', '但有', '还款', '能力', '通上', '上班', '上班族', '排除',\n",
       "       '在外', '细分', '客户', '客户群', '群体', '此前', '只能', '小额', '小额贷款', '贷款',\n",
       "       '公司', '贷款', '小额', '小额贷款', '贷款', '公司', '对白', '白领', '群体', '个体', '工商',\n",
       "       '工商户', '商户', '推出', '无担保', '担保', '抵押', '小额', '小额贷款', '贷款', '该是',\n",
       "       '银行', '小额', '小额贷款', '贷款', '业务', '一种', '尝试', '业内', '业内人士', '内人',\n",
       "       '人士', '小额', '小额贷款', '贷款', '公司', '推出', '无担保', '担保', '抵押', '贷款',\n",
       "       '客户', '客户群', '群体', '高利', '高利率', '利率', '面有', '共同点', '同点', '小额',\n",
       "       '小额贷款', '贷款', '公司', '安易', '公司', '推出', '抵押', '无担保', '担保', '贷款',\n",
       "       '产品', '薪金', '面向', '工作', '收入', '2000', '客户', '客户群', '群体', '贷款',\n",
       "       '月利率', '利率', '外加', '行政', '管理', '管理费', '门槛', '收入', '3000', '贷款',\n",
       "       '利率', '每月', '支付', '69', '账户', '管理', '管理费', '该行', '工作', '工作人员',\n",
       "       '作人', '人员', '介绍', '一笔', '年期', '贷款', '折算', '算下', '算下来', '相当于', '当于',\n",
       "       '年利率', '利率', '13', '相比', '相比之下', '之下', '发放', '发放贷款', '放贷', '贷款',\n",
       "       '乘数', '效应', '略大于', '大于', '薪金', '可发', '发放', '相当于', '当于', '税前', '收入',\n",
       "       '10', '12', '贷款', '最高额', '高额', '额度', '超过', '20', '万元', '薪金', '发放',\n",
       "       '收入', '贷款', '贷款额', '贷款额度', '款额', '额度', '最高额', '高额', '超过', '10',\n",
       "       '万元', '股份', '股份制', '银行', '个贷', '部门', '负责', '负责人', '责人', '告诉', '记者',\n",
       "       '信用', '信用贷款', '贷款', '高风险', '风险', '收益', '业务', '品种', '贷款', '细分',\n",
       "       '市场', '业务', '空间', '较大', '该行', '研究', '推出', '类似', '业务', '白领', '领人',\n",
       "       '人士', '短期', '资金', '需求', '预计', '正式', '推出', '记者', '银行', '产品', '公开',\n",
       "       '宣传', '过电', '电话', '方式', '中高', '高端', '客户', '客户群', '群体', '推出', '此类',\n",
       "       '信用', '信用贷款', '贷款', '年利率', '利率', '12'], dtype=object)"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red['cutword'][4000]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Tu_train_df = pd.read_csv(\"../cnews/cnews_train.csv\" )\n",
    "# # train_df = pd.concat([Red_df, Tu_train_df])\n",
    "# Tu_train_df.columns = ['class_label', 'content', 'cutword', 'cutwordnum']\n",
    "# Tu_train_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# id = np.arange(7001, 7001+50001)\n",
    "# id = pd.Series(id)\n",
    "# id"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Tu_train_df['id'] = id\n",
    "# train_df = pd.concat([Red_df, Tu_train_df])\n",
    "# train_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "metadata": {},
   "outputs": [],
   "source": [
    "# train_df = train_df.drop('id', axis=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>class_label</th>\n",
       "      <th>content</th>\n",
       "      <th>cutword</th>\n",
       "      <th>cutwordnum</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>时政</td>\n",
       "      <td>韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...</td>\n",
       "      <td>韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...</td>\n",
       "      <td>223</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>房产</td>\n",
       "      <td>王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...</td>\n",
       "      <td>商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...</td>\n",
       "      <td>429</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>房产</td>\n",
       "      <td>碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...</td>\n",
       "      <td>碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...</td>\n",
       "      <td>305</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>房产</td>\n",
       "      <td>刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...</td>\n",
       "      <td>商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...</td>\n",
       "      <td>496</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>财经</td>\n",
       "      <td>回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...</td>\n",
       "      <td>回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...</td>\n",
       "      <td>1160</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6995</th>\n",
       "      <td>6995</td>\n",
       "      <td>科技</td>\n",
       "      <td>英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...</td>\n",
       "      <td>刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...</td>\n",
       "      <td>439</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6996</th>\n",
       "      <td>6996</td>\n",
       "      <td>时尚</td>\n",
       "      <td>搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...</td>\n",
       "      <td>搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...</td>\n",
       "      <td>89</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6997</th>\n",
       "      <td>6997</td>\n",
       "      <td>家居</td>\n",
       "      <td>加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...</td>\n",
       "      <td>零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...</td>\n",
       "      <td>21</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6998</th>\n",
       "      <td>6998</td>\n",
       "      <td>时政</td>\n",
       "      <td>基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...</td>\n",
       "      <td>基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...</td>\n",
       "      <td>173</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6999</th>\n",
       "      <td>6999</td>\n",
       "      <td>时政</td>\n",
       "      <td>国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...</td>\n",
       "      <td>国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...</td>\n",
       "      <td>340</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>7000 rows × 5 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        id class_label                                            content  \\\n",
       "0        0          时政  韩美决定每年在黄海举行反潜联合军演(图)中新网10月19日电 据韩国《朝鲜日报》网站19日报...   \n",
       "1        1          房产  王鹏：商业地产重要的三个环节董利：刚才蔡总介绍了一下台湾的便利店，其实便利店在改变着人们的生...   \n",
       "2        2          房产  碧桂园股份掉期亏损净利降66%料今年销售额达190亿 杨国强对楼市表示“审慎乐观” 东方早报...   \n",
       "3        3          房产  刘新虎：关于丽泽商务区的定位问题【刘新虎】：主要是为了学习，因为以前在丰台区开发过项目，20...   \n",
       "4        4          财经  回顾2010年的邮市：各品种多版块都很给力老票精品很给力。2010年的春天，老票精品吹响了邮...   \n",
       "...    ...         ...                                                ...   \n",
       "6995  6995          科技  英媒刊登照片展示全球正在消融的冰川(图)新浪科技讯 北京时间4月30日消息，据英国《卫报》报...   \n",
       "6996  6996          时尚  搭配QA：厚厚羽绒服怎么穿出流行感Q：冬天不得不穿上厚厚的羽绒服御寒，可以大部分羽绒服设计都...   \n",
       "6997  6997          家居  加以零星别致的摆设(图)快乐来临时，一切都是美好的，清新的色调，加以零星别致的摆设，体现出充...   \n",
       "6998  6998          时政  基地组织训练5岁娃娃兵练习射击充当人弹(图)中新网7月11日电 据英国媒体10日报道，英国一...   \n",
       "6999  6999          时政  国务院修改发布外商投资电信企业管理规定新华社北京9月12日电国务院关于修改《外商投资电信企业...   \n",
       "\n",
       "                                                cutword  cutwordnum  \n",
       "0     韩美 黄海 反潜 联合 中新 中新网 新网 10 19 日电 韩国 朝鲜 日报 网站 19 ...         223  \n",
       "1     商业 商业地产 地产 三个 环节 介绍 下台 台湾 便利 便利店 便利 便利店 改变 生活 ...         429  \n",
       "2     碧桂园 桂园 股份 亏损 净利 66 年销售额 销售 销售额 190 杨国强 国强 楼市 审...         305  \n",
       "3     商务 商务区 定位 定位问题 学习 丰台 丰台区 台区 开发 发过 项目 2006 撤出 撤...         496  \n",
       "4     回顾 2010 邮市 品种 版块 精品 2010 春天 精品 吹响 邮市 反转 进军 军号 ...        1160  \n",
       "...                                                 ...         ...  \n",
       "6995  刊登 照片 展示 全球 消融 冰川 新浪 科技 北京 时间 30 消息 英国 卫报 报道 全...         439  \n",
       "6996  搭配 QA 厚厚 羽绒 羽绒服 穿出 流行 冬天 厚厚 厚厚的 羽绒 羽绒服 御寒 大部 大...          89  \n",
       "6997  零星 别致 摆设 快乐 来临 临时 一切都是 美好 清新 色调 零星 别致 摆设 体现 现出...          21  \n",
       "6998  基地 组织 训练 娃娃 娃娃兵 射击 充当 中新 中新网 新网 11 日电 英国 媒体 10...         173  \n",
       "6999  国务 国务院 修改 发布 外商 外商投资 投资 电信 企业 管理 新华 新华社 北京 12 ...         340  \n",
       "\n",
       "[7000 rows x 5 columns]"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "train_df = Red_df\n",
    "train_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "train_df.to_csv(\"../cnews/train_data_com3.csv\", index=False, sep=',')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.9"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
